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摘 要 : 针对 大 规模 数据 下 遗传 直接 定位 算法 执行 时 间 慢 、 实 时 性 较 差 问题 ,提出 了 基于 GPU 加 速 的 并 行 遗传 直接 定 
位 算 法 。 根 据 直 接 定位 代价 函数 特点 ， 设 计 了 GPU 高 速 并 行 遗 传 进化 架构 ， 通 过 对 适应 度 函 数 并 行 化 计算 以 及 对 选 
择 、 交 又 、 变 异 等 遗传 操作 并 行 化 设计 , 缩短 了 算法 执行 时 间 ，, 提高 了 算法 执行 效率 。 仿真 实验 表明 ,通过 合理 的 GPU 
并 行 线程 结构 设计 ， 显 著 提 升 了 遗传 直接 定位 算法 的 执行 速度 ， 可 更 快 得 到 直接 定位 估计 结果 。 
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Research on direct position determination based on GPU accelerated genetic algorithm 


Ren Yanqing, Lu Zhiyu, Wang Daming 
(Institute of Information System Engineering, Information Engineering University Zhengzhou 450001, China) 


Abstract: The genetic direct position determination (DPD) algorithm executes slowly and has poor real-time performance under 
the large-scale data condition. This paper proposed a GPU-based genetic DPD algorithm to overcome the above shortcoming. 
According to the cost function of DPD, it designed a high speed parallel architecture of GPU. It reduced the execution time and 
improved efficiency, according to the parallel design of the fitness function and the genetic operation such as selection, crossover 
and mutation. The experiments show that, through reasonable design of the parallel thread architecture of GPU, the proposed 
method can reduce the execution time of the genetic DPD algorithm efficiently and locate the emitter faster. 
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免 搜索 大 量 无 意义 点 ， 有 效 提升 了 直接 定位 算法 的 搜索 效率 。 

然而 随 着 网 格 搜索 范围 的 增加 ， 必 然 要 求 通过 增加 种 群 规 模 来 
传统 的 无 源 定位 体制 一 般 采用 两 步 定 位 法 ， 即 首先 估计 出 。” 减 小 算法 陷入 局 部 最 优 的 可 能 性 。 遗 传 算法 在 种 群 数量 和 观测 
标的 定位 参量 ， 然 后 通过 定位 方程 实现 目标 位 置 解 算 。 两 步 。 数据 规模 增加 的 情况 下 计算 量 仍然 十 分 巨大 ， 搜 索 时 间 长 、 实 


0 引言 


J 


定位 方法 虽然 处 理 过 程 较为 简单 ， 但 由 于 参数 估计 和 位 置 解 算 。 时 性 差 ， 阻碍 了 遗传 算法 在 直接 定位 中 的 有 效应 用 。 

相 分 离 ， 不 可 避免 地 造成 数据 处 理 过 程 中 位 置信 息 的 损失 ， 遗传 算法 中 个 体 之 间 相 互 独立 ， 具 有 天 然 的 并 行 特 性 ， 并 

而 无 法 获得 最 优 的 估计 性 能 。 直 接 定位 技术 (direct position 行 化 设计 是 提升 算法 速度 的 主要 途径。 目前 遗传 算法 大 多 基于 

determination, DPD ) 避免 了 两 步 定 位 方法 因 两 步 分 离 造 成 的 信 ”CPU 多 线程 设计 1， 由 于 CPU 的 硬件 结构 特点 所 决定 ，CPU 

息 损 失 ， 因 而 具有 更 高 的 定位 精度 ， 已 成 为 近年 来 无 线 定 位 领 。” 线程 数 较 少 , 并 不 适合 做 大 规模 并 行 计算 , 基于 CPU 的 遗传 算 

或 研究 热点 0 。 法 对 直接 定位 搜索 的 速度 提升 有 限 。 近 年 来 基于 图 形 处 理 器 
直接 定位 技术 虽然 具有 更 高 的 定位 精度 ， 但 其 计算 复杂 度 (graphics processing unit，GPU) 的 并 行 计算 研究 引起 学 者 广 


也 明显 增加 。 现 阶段 的 直接 定位 方法 几乎 均 基 于 遍历 思想 ， 采 ”” 泛 关注 71。GPU 的 内 核资 源 丰 富 ， 具 有 大 规模 甚至 超大 规模 
用 网 格 搜 索 方 式 实现 对 目标 位 置 的 估计 。 其 计算 复杂 度 随 着 网 。 的 多 线程 并 行 计算 能 力 。 通 过 结合 遗传 算法 个 体 之 间 独 立 性 与 
格 搜 索 范 围 和 搜索 精细 度 增加 而 呈 几 何 级 数 增加 ， 给 该 类 方法 GPU 并 行 化 的 硬件 结构 特点 ， 可 有 效 加 快 遗传 算法 迭代 速度 。 
的 实际 应 用 造成 了 困难 。 近 年 来 兴起 的 智能 优化 算法 馈 为 解决 ”但 目前 GPU 遗传 算法 主要 集中 于 种 群 个 体 并 行 性 (时 、 随 机 数 
直接 定位 搜索 量 大 问题 提供 了 新 思路 。 文 献 [6] 利 用 遗传 算法 产生 03 吴 等 方面 的 并 行 化 研究 ， 并 未 针对 不 同 适应 度 函 数 的 特 
(genetic algorithm，GA) 的 概率 传递 规则 代 丛 确定 性 规则 , 避 ”点 进行 并 行 优化 设计 。 因 此 传统 的 GPU 遗传 算法 并 不 完全 适 
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录用 稿 任 衍 青 ， a 
合 在 直接 定位 中 应 用 ， 加 速 性 能 有 待 进一步 提升 。 个 体 适应 能 力 越 强 ， 个 体 越 接 近 问 题 的 最 优 解 申 。 此 处 以 式 (5) 
综 上 所 述 , 在 大 规模 种 群 条 件 下 , 基于 CPU 的 遗传 直接 定 。 直接 定位 代价 函数 值 作为 个 体 的 适应 度 函 数值 。 选 择 操 作 是 从 


位 算法 (GA-DPD) 迭代 时 间 较 长 、 实 时 性 较 差 ,而 目前 经 过 


当前 种 群 中 选择 适应 度 值 较 高 的 个 体 作为 进行 下 步 遗 传 操 作 的 


GPU 加 速 的 遗传 算法 用 于 对 目标 的 直接 定位 过 程 中 , 未 能 针对 


父 本 ， 常 采用 正比 选择 策略 ， 即 个 体 被 选择 的 概率 为 该 个 体 适 


适应 度 函 数 的 特点 作 进 一 步 并 行 优化 设计 ， 仍 有 进一步 加 速 的 
空间 。 本 文 首先 针对 直接 定位 代价 函数 的 特点 合理 设计 并 行 化 
适应 度 函 数 计算 方法 ;然后 并 行 化 选择 、 交 叉 、 变 异 等 操作 ， 

最 大 程度 地 将 GA-DPD 算法 的 各 部 分 进行 并 行 化 处 理 , 提高 算 
法 的 迭代 速度 。 实验 部 分 分 别 将 GA-DPD 算法 与 本 文 所 设计 的 
GPU 并 行 遗传 直接 定位 算法 (GPU-GADPD) 进行 对 比 ， 证 明 
本 文 方法 实现 进一步 加 速 的 有 效 性 。 


1 ”问题 模型 


1.1 直接 定位 模型 
假设 存在 一 位 置 为 p=[%,y] 的 静止 目标 信号 源 ， 发 射 载 
频 为 £ 的 窄带 信号 s(1) 。 工 个 运动 观测 站 在 天 个 观测 间隙 内 对 
目标 信号 进行 观测 ， 则 在 1 时 刻 的 观测 数据 模型 为 
ni (7)=bs (te tn (t),0<t<T (1) 


其 中 : bi 表示 信号 在 第 个 观测 间 际 到达 第 /个 观测 站 的 复 传 
播 系 数 : w% (0 表示 信号 在 第 上 个 观测 间隙 内 的 复 包 络 ，wx (0) 表 


7 表示 观测 间隙 长 度 ， 记 表示 第 ! 个 观测 站 在 
到 的 信号 频率 ， 并 有 

fr =f (+ pr) O) 
标 和 观测 站 相对 位 移 引 起 的 多 普 勒 效应 。 


示 高 斯 白 噪声 ; 
第 个 观测 间隙 观测 


其 中 : 


Aix 家 不 于 


经 过 数字 下 变频 后 ， 对 每 个 观测 间隙 内 的 信号 进行 快 拍 采样 


即 采样 间隔 为 7 = 二 一 ， 观 测 矢量 可 表示 为 


Ti = brAisr tm (3) 
A NE EE 
mx Sn [0], na [d,s ni [N -1] lL 
E ] 而 


8 a[s, [0],s; [1],*…, 


A 1， jz 
A sdiag{Le i 


Sk [N 1 


Jj2afep x( NI)T, } 


其 中 : diag{ 站 表示 矢量 对 角 化 操作 ; 7 和 si 为 Nx1 维 矢量 ; 4 
为 NxN 维和 矩阵 。 
在 此 不 加 证 明 地 给 出 ， 


式 (1) 直 接 定位 模型 的 最 大 似 然 代价 


函数 03 为 
c= > ss) (5) 
故 该 直接 定位 模型 的 最 大 似 然 估 计 为 
bo =argmax {7)} (0) 
1.2 遗传 直接 定位 算法 
GA-DPD 算法 的 主要 流程 如 图 1 所 示 。 初 始 种 群 由 位 置 坐 


标 [%y] 构成 , 这 些 位 置 坐标 在 搜索 范围 内 随机 产生 。 适应 度 函 
数 用 于 描述 个 体 对 环境 的 适应 能 力 ， 适 应 度 函 数值 越 大 ， 说 明 


应 度 函 数值 占 种 群 所 有 个 体 适 应 度 函 数值 总 和 的 比例 。 假 设 第 
i 个 个 体 的 适应 度 函数 值 为 ， 种 群 数量 为 ， 则 该 个 体 被 选 
中 进行 选择 操作 的 概率 为 


h 


> (7 


P= 


得 到 该 个 体 的 选择 概率 后 ， 采 样 “ 轮 盘 赌 ”方式 决定 是 否 进 
行 选择 操作 。 交 叉 操 作 是 以 给 定 的 交叉 概率 决定 父 本 个 体 间 是 
否 相互 进行 杂交 计算 产生 两 个 新 的 个 体 。 变 异 操 作 是 以 给 定 的 
变异 概率 决定 父 本 个 体 是 否 进行 变异 运算 产生 全 新 个 体 。 


变 更 新 

中 i N| 种 群 
| 操 判断 终止 条 伯 (位 置 

作 4 坐标 ) 


输出 位 置 
估计 结果 


产生 初 | | | 根据 式 “ 轮 盘 

始 种 群 | | (5) 计 算 财 ” 
(位 置 三 ”| 适应 度 站 | 选择 

坐标 ) 函数 什 操作 


请 浇 冯 汲 


图 1 GA-DPD 算法 基本 流程 


综 上 所 述 ， 通 过 式 (5) 可 以 发 现 ， 完 成 一 个 网 格 搜索 ， 共 需 
要 进行 KL(N? +N) 次 乘法 运算 。 假 设 采样 长 度 W=10' 上 且 开 xZL=6， 
种 群 数 了 =1000 ， 完 成 一 次 遗传 迭代 计算 适应 度 函 数 所 需 的 乘 
法 次 数 为 60 亿 次 。 可 以 看 出 ,虽然 遗传 算法 采用 智能 搜索 方式 
有 效 改善 了 遍历 搜索 所 造成 的 巨大 计算 压力 ， 但 随 着 种 群 数 
扩大 和 数据 规模 增加 ， 连 代 过 程 中 的 计算 量 急 剧 增加 、t 
时 加 大 、 实 时 性 变 差 ， 给 算法 的 实际 应 用 带 来 困难 。 
过 对 GA-DPD 算法 进行 GPU 加 速 并行 化 设计 ， 提 升 算法 的 计 
算 效 率 ， 缩 短 算法 闪 代 时 间 ， 以 期 满足 工程 应 用 需求 。 


2 ”基于 GPU 加 速 的 并 行 遗传 直接 定位 算法 
2.1 适应 度 函 数 并 行 化 
通过 第 1 章 可 以 看 到 ，GA-DPD 算法 的 适应 度 函 数 计算 中 


需要 进行 与 采样 点 相关 的 乘法 操作 ， 当 采样 点 数 较 大 时 ， 适 应 
度 函 数 的 计算 将 耗费 大 量 时 间 , 成 为 算法 效率 提升 的 主要 瓶颈 。 
若 能 对 适应 度 函 数 的 计算 进行 并 行 处 理 ， 可 大 大 提升 算法 的 执 
行 效 率 。GPU 中 线程 并 行 化 设计 体现 在 线程 结构 的 组 织 上 ， 
GPU 的 基本 编程 模型 09 如 图 2 所 示 ， 包 含 线程 块 (Block〉 层 
和 线程 (Thread〉 层 两 个 并 行 逻 辑 层 。 其 中 一 个 Block 中 包含 
G 个 Thread。 不 同 的 Block 间 相 互 并 行 ， 同 一 个 Block 中 的 
Thread 间 也 相互 并 行 。 

由 于 一 个 Block 中 的 最 大 线程 数量 (一 般 G=1024 ) 可 能 远 
低 于 GA-DPD 算法 中 采样 点 的 数量 , 若 仅 采用 一 个 Block 中 的 
线程 处 理 GA-DPD 所 有 采样 点 , 意味 着 每 个 线程 将 分 担 处 理 多 
个 采样 点 运算 , 而 其 余 Block 处 于 空闲 状态 , 对 资源 造成 浪费 ， 
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导致 算法 的 并 行 效率 低下 。 最 大 化 线程 数量 是 使 用 GPU 的 进行 GPU 并 行 加 速 。 由 于 一 个 线程 对 应 处 理 一 个 个 体 的 遗传 
个 重要 优化 策略 nH， 一 个 Block 显然 无 法 发 挥 GPU 的 真实 性 ”操作 ， 当 种 群 个 体 数目 超过 一 个 Block 的 最 大 线程 数 G 时 ， 需 


能 ， 故 采用 如 下 方式 使 每 个 线程 处 理 单个 采样 点 ， 使 调动 的 线 。 要 利用 多 个 Block 进行 规约 求 和 并 行 计算 。 但 要 注意 每 个 Block 
程 数量 最 大 化 。 内 线程 操作 只 能 得 到 该 Block 内 的 线程 所 对 应 的 适应 度 值 求 和 
中 间 结 果 ， 所 有 Block 的 中 间 结 果 构 成 一 个 中 间 结 果 数 组 ， 该 
Block(0.0) Block(i,0) Block(M.0) 
TT 本 1 数组 共有 | 全 | 个 元 素 ，「*] 表 示 向 上 取 整 。 需要 对 该 数组 进行 二 
次 规约 才 可 得 到 种 群 所 有 个 体 的 适应 度 之 和 。 
Block(0,1 Block(i,l Block(M.1 
| | | || 六 和 1 so. | | | | 1 轩 0 四 Te i Block(M.,0) 
: : : 由 
BosOO) Blockd.O) BlockCM.0) J J i 
i Bo 
图 2 GPU 基本 编程 模型 图 4 并 行 遗传 操作 线程 分 配 示意 图 
首先 根据 种 群 数量 设置 共 P 行 Block 阵列 ， 并 假设 每 个 在 选择 、 交 叉 和 变异 遗传 操作 过 程 中 ， 需 要 大 量 用 到 随机 
Block 中 调动 的 线程 数 为 y ， 则 每 行 其 需 调用 D- 习 个 Block。 数组 来 决定 子 代 种 群 的 产生 ， 而 GPU 并 没有 提供 随机 数 生成 
| A ” 接口 ， 需 要 设计 随机 数 生成 机 制 。GPU 随机 数 生成 算法 得 到 广 


也 即 同一 行 的 所 有 Block 索引 同一 个 个 体 ， 该 行 Block 中 被 调 。” 泛 研 究 , 比较 成 熟 的 主要 有 线性 同 余 法 和 平方 取 中 法 。 文 献 [13] 
用 的 线程 分 别处 理 该 个 体 的 一 个 采样 点 。 以 第 4 个 个 体 计算 适 分 析 了 当 产 生 随机 数 较 多 时 ， 利 用 线性 同 余 法 产生 的 随机 数组 
应 度 函 数 为 例 ， 线 程 分 配 情况 如 图 3 所 示 。 的 均匀 性 比 利 用 平方 取 中 法 产生 的 随机 数组 的 均匀 性 更 好 。 因 
en = a Qe 此 在 本 文 所 提出 的 GPU-GADPD 算法 中 , 采用 线性 同 余 法 产生 


I ee ee 


mT 


= | 2.3 GPU-GADPD 算法 基本 流程 

> > 利用 GPU 进行 并 行 加 速 计算 ， 需 将 原始 数据 从 CPU 内 存 
I ee Ld 拷贝 到 GPU 显存 中 , 待 加 速 完 成 后 , 再 将 计算 结果 从 显存 拷贝 
一 一 一 一 一 一 一 一 一 到 内 存 中 。 这 种 数据 搬移 会 产生 显著 的 通信 开销 , 降低 GPU 加 


图 3 ”并行 计 算 适 应 度 函 数 线程 分 配 示意 区 


速 的 整体 效率 。 所 以 在 进行 GPU 并 行 化 程序 设计 时 , 应 尽量 避 
图 3 表示 的 是 第 g-1 行 的 第 0 到 第 D 个 Block 处 理 第 4 个 ” 免 在 内 存 与 最 存 间 进行 不 必要 的 数据 迁移 。 基 于 上 述 原因 ， 在 
GO 个 体 所 有 数据 ， Thread0 ~ Thread(D+DV-1 分 别 对 应 处 理 每 一 个 ” GPU-GADPD 算法 设计 过 程 中 ， 除 了 观测 数据 和 初始 种 群 在 内 
采样 点 ， 通 过 此 种 方式 调动 最 多 的 线程 来 计算 适应 度 函 数 ， 使。 存 中 产生 并 向 GPU 显存 搬移 ， 计 算 种 群 适应 度 函 数值 、 选 择 、 
适应 度 函 数 的 计算 并 行 性 得 到 最 大 化 。 此 处 应 当 说 明 的 是 ， 在 ”交叉 和 变异 操作 均 在 GPU 内 执行 ， 避 免 迭 代数 据 在 内 存 与 显 
进行 线程 分 配 时 应 尽 可 能 使 每 个 被 调动 的 Block 内 的 所 有 线程 ” 存 间 频 繁 传输 ， 提 高 算法 执行 效率 。GPU-GADPD 算法 的 数据 
活跃 ， 故 V 常设 为 G， 否 则 会 造成 Block 中 部 分 线程 处 于 空闲 ”迁移 以 及 算法 执行 流程 如 图 5 所 示 。 

状态 ， 浪 费 计算 资源 。 


> Yo | ™ 
2.2 ”遗传 操作 并 行 化 | 观测 数据 ， 数据 CPU 到 GPU 迁 移 1 a al 
1.2 节 GA-DPD 算法 流程 可 知 ， 当 得 到 种 群 的 适应 度 函 | 初 内 种群 | i ER 
1 二 , l 
数值 后 ， 开 始 选择 、 交 叉 和 变异 遗传 操作 。 由 于 种 群 中 每 个 个 天 


体 在 选择 、 交 又 和 变异 操作 中 相互 独立 ， 所 以 可 对 这 些 遗 传 操 ' 
作 作 进一步 GPU 加 速 并 行 设计 。 对 种 群 每 个 个 体 单独 分 配 一 ee 
个 线程 ， 具 体 线程 分 配方 式 如 图 4 所 示 。 对 所 有 Block 的 线程 
统一 编号 分 配 ， 每 个 线程 单独 操作 种 群 中 一 个 个 体 ， 完 成 该 个 
体 的 选择 、 交 叉 和 变异 操作 ， 最 大 线程 数 等 于 种 群 数 即 < 
BG+g=P, 
| 图 5 GPU-GADPD 算法 执行 流程 

1.2 节 式 (7) 可 知 ， 在 进行 选择 操作 之 前 需要 计算 种 群 所 

有 个 体 的 适应 度 函 数值 之 和 ， 可 采用 规约 09 思 想 对 适应 度 求 和 其 中 ， 针 对 适应 度 函 数值 和 遗传 操作 的 计算 分 别 按照 2.1 
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和 2.2 节 所 设计 的 线程 结构 进行 并 行 加 速 。 从 图 5 可 以 看 出 ， 
在 整个 GPU-GADPD 算法 执行 过 程 中 , 只 有 人 友 代 开始 前 和 结束 
后 在 CPU 与 GPU 间 进 行 了 一 次 数据 搬移 ， 迭 代 过 程 始终 在 
GPU 内 进行 ， 减 少 了 通信 开销 ， 提 高 了 算法 执行 效率 。 


3 ”实验 验证 


仿真 以 GPU-GADPD 算法 完成 一 次 迭代 所 耗费 时 间 为 衡 
量 标准 ， 验 证 所 提 算 法 的 加 速效 果 。 考 虑 到 每 代 种 群 迭 代 时 间 
具有 一 定 随 机 性 ， 故 设置 最 大 欠 代 代数 为 500 代 ， 并 取 完 成 所 
有 连 代 的 总 时 间 对 每 一 代 的 平均 值 作为 完成 一 次 迭代 所 耗费 时 
间 。 假 设 目 标 位 于 (6.5,4)km 处 向 外 界 发 射 载 频 为 0.2GHz 信号 ， 
两 观测 站 速度 大 小 为 200mys ,分别 在 (1,0)km 、(5,0)km 、(9,0)km 
和 (10,1)km 、(10,5)km 、(10,9)km 处 对 目标 进行 观测 。 遗传 参数 设 
置 为 : 交叉 概率 为 0.9， 变 异 概率 为 0.1。 接 下 来 将 对 GA-DPD 
算法 和 本 文 所 提 GPU-GADPD 算法 进行 对 比 , 在 达到 相同 定位 
精度 条 件 下 ,验证 GPU-GADPD 算法 的 加 速效 果 。 本 文 仿真 实 


一 


验 软 件 参 数 配置 如 下 : 操作 系统 ，Windows 7 64bit Ultimate; 
CUDA 开发 平台 , CUDA 7.0; 程序 运行 平台 , Visual Studio 2012 


Ultimate。 所 用 硬件 参数 配置 如 表 1 所 示 。 
表 1 实验 硬件 参数 配置 


硬件 型 号 主 频 存储 容量 
CPU Intel Core i7 6700K 4.0GHz 16G 
GPU NVIDIA GeForce GTX 970 1050MHz 4G 


为 了 验证 GPU-GADPD 算法 针对 不 同 种 群 规模 的 加 速效 
果 ， 设 置 采样 点 数 N=2*， 得 到 随 着 种 群 规模 增加 两 种 算法 的 
执行 时 间 以 及 加 速 比 结果 ， 如 表 2 所 示 ， 并 根据 表 2 得 到 图 6 
所 示 加 速效 果 。 首 先 从 表 中 可 以 看 出 ，GA-DPD 算法 的 执行 时 
间 与 种 群 规模 基本 呈 线 性 关系 ， 种 群 规 模 增 加 一 倍 ， 执 行 时 间 
也 增加 约 一 倍 ， 这 是 GA-DPD 算法 单线 程 执行 方式 所 导致 。 而 
本 文 所 提出 的 GPU-GADPD 算法 执行 时 间 并 不 会 随 着 种 群 规 
模 增 加 而 呈 线 性 增加 。 只 有 当 种 群 规模 增加 到 足够 大 以 后 ， 算 
法 执行 时 间 才 会 随 着 种 群 规模 翻 倍 而 成 倍增 加 。 通 过 图 6 可 以 
直观 地 看 到 ， 随 着 种 群 规模 增加 ， 所 提 算 法 的 加 速 增益 越 来 越 
明显 , 最 高 加 速 增益 可 达 40 倍 以 上 , 当 种 群 规模 增加 到 一 定 程 
度 后 , 加 速 比值 趋 于 稳定 。 因此 本 文 所 提出 的 基于 GPU 并 行 加 
速 设计 的 GPU-GADPD 算法 能 够 带 来 较 好 的 加 速效 果 , 证 明了 
所 提 算 法 有 效 性 。 应 当 说 明 的 是 ， 限 于 实验 条 件 限 制 ， 本 文 所 
采用 的 英 伟 达 公司 GeForce 系列 显卡 属于 普通 级 显卡 ， 并 不 是 
做 并 行 计 算 的 专用 显卡 , 若 采 用 该 公司 的 Quadro 系列 甚至 Tesla 
系列 高 性 能 专业 显卡 ， 相 信 本 文 所 提 算 法 的 加 速效 果 将 会 更 加 
明显 。 

为 了 进一步 验证 本 文 所 提 算 法 加 速 有 效 性 ， 保 持 种 群 规模 
不 变 P=128 ， 针 对 不 同 采样 长 度 ， 得 到 GPU-GADPD 算法 和 
GA-DPD 算法 执行 时 间 实 验 结果 ， 如 表 3 所 示 ， 并 由 表 3 得 到 
图 7 所 示 加 速效 果 。 与 第 一 组 实验 结果 一 致 ， 本 文 所 提 算 法 能 


够 实现 良好 的 加 速效 果 。 从 图 6 可 以 看 出 ， 加 速 比 变化 呈现 出 
先 组 后 快 再 组 的 三 段 变 化 趋势 。 这 可 分 别 从 三 个 方面 解释 这 一 
现象 : a) 由 于 在 算法 执行 过 程 中 , GPU 需要 不 断 从 全 局 内 存 中 


任 衍 青 ， 


Nn 
等 : 基于 GPU 加 速 遗 传 算 ; 


取 数 据 ， 当 采样 点 数 较 少 时 ， 算 法 线程 执行 时 间 相 对 于 内 存 访 


问 时 间 微 不 足 道 ， 通 过 线程 


行 计算 所 得 到 加 速 增益 不 足以 隐 


藏 数据 访问 延迟 ,所 以 此 阶段 加 速 比值 较 小 ,加 速效 果 不 明 显 


大 规模 数 


b) 随 着 采 村 
能 够 较 好 地 隐藏 数据 访问 延迟 ， 所 以 
c) 随 着 采样 点 数 继续 增加 ，GPU 趋 于 
大 计算 能 力 , 所 以 加 速 
而 呈现 出 平稳 的 趋势 。 
居 的 并 行 处 理 
算 弥 补 内 存 访问 延迟 ， 可 


比 不 再 随 着 数据 规模 的 
可 知 ，GPU 的 优势 在 于 对 


点 数 增加 ，GPU 大 规模 并 行 计算 优势 逐渐 凸显 ， 
比 阶段 加 速 比 明显 提高 ; 
F 满 负荷 运行 , 达到 了 其 最 


曾 大 而 显著 增加 ， 


通过 调动 尽 可 能 多 的 线程 执行 并 行 计 


表 2 不 同 种 群 规模 GA-DPD 算法 和 GPU-GADPD 算法 
计算 时 间 对 比 
种 群 数 GA-DPD/ms GPU-GADPD/ms 加 速 比 
16 8.495 0.686 12.383 
32 16.460 0.874 18.833 
64 31.590 1.248 25.313 
128 64.375 1.910 33.704 
256 126.050 3.416 36.900 
512 252.250 6.490 38.868 
1024 505.440 12.512 40.396 
2048 1009.710 24.906 40.541 
4096 2040.450 49.358 41.340 
8192 4095.955 98.592 41.545 
ho| [一 GADPD 
2500 
Bso00 
种 群 数 
6 不 同 种 群 规模 下 GPU-GADPD 算法 加 速效 果 
4 ”结束 语 


遗传 算法 在 直接 定位 中 的 应 月 
历 搜 索 效率 低下 问题 ， 但 当 数 据 规模 较 大 时 ， 

长 、 实 时 性 较 差 。 针对 此 问题 本文 提出 了 基于 GPU 加 速 的 
行 遗传 直接 定位 算法 。 通 过 对 适应 度 函 数 的 
择 、 交 又、 变异 等 并 行 化 遗传 操作 , 显著 缩短 了 算法 执行 时 间 。 


日 改 善 了 传统 直接 定位 算法 遍 


算法 执行 时 间 过 


行 化 计算 以 及 选 


实验 结果 表明 ， 利 用 本 文 所 设计 的 线程 分 配 结构 对 遗传 直接 定 
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位 算法 执行 并 行 计算 ， 可 在 现 有 GPU 上 获得 50 倍 左右 的 加 速 
具有 重要 实际 意义 与 工程 


效果 ， 极 大 地 缩短 了 算法 计算 时 间 ? 


应 用 价值 。 


表 3 不 同 采 样 长 度 GA-DPD 算法 和 GPU-GADPD 算法 
计算 时 间 对 比 


采样 点 GA-DPD/ms GPU-GADPD/ms 加 速 比 
25 4.680 1.590 2.943 
27 8.735 2.202 3.967 
28 16.615 3.682 4.513 
29 32.135 5.272 6.095 
25 63.725 1.904 33.469 
20 125.030 3.120 40.074 
22 250.380 5.460 45.857 
2 501.615 10.014 50.091 
2 1008.930 19.252 52.407 
5 2029.640 37.720 53.808 
216 4104.635 74.754 54.907 
2 8192.625 148.902 55.020 
218 16398.241 297.430 55.133 

| le 
后 


-20 


图 7 不 同 采样 长 度 下 GPU-GADPD 算法 加 速效 果 


参考 文献 : 


[1] 冯 奇 ， 曲 长 文 , 周强 . 多 运动 站 异步 


观测 条 件 下 的 直接 定位 算法 []. 


[2] 


[10] 方 民 权 ， 张 卫 民 ， 方 建 滨 . GPU 编程 与 优化 : 大 众 高 性 


ChinaXiy 合 作 


任 衍 青 ， 等 : 基于 GPU 加 速 遗传 算 


电子 与 信息 学 报 ,2017, 39 (2): 417-422. 
. 基于 分 段 信号 相关 累加 的 变速 度 多 站 联合 
直接 定位 方法 [四 . 物理 学 报 , 2017, 66 (2): 66-75. 


未 志 宇 , 任 衍 青 ， 巴 试 ， 


Yin J X, Wu Y, Wang D. Direct position determination of multiple 
noncircular sources with a moving array [J]. Circuits Systems & Signal 
Processing, 2017, 36 (10): 4050-4076. 

Tzafri L, Weiss A. High resolution Direct position determination using 
MVDR [J]. IEEE Trans on Wireless Communications, 2016, 15 (9): 1-1. 


汪 定 伟 . 智能 优化 方法 [M]. 北京 : 高 等 教育 出 版 社 ,2007. 


任 衍 青 ， 逐 志 宇 ， 巴 试 ， 等 . 锐 化 遗传 直接 定位 快速 估计 算法 四. 西 
安 电 子 科技 大 学 学 报 : 自然 科学 版 , 2017, 44 (4): 144-150. 


曹 凯 ， 陈 国 虎 , 江 梯 ,等 . 自 适 应 引导 进化 遗传 算法 [J]. 电子 与 信息 
学 报 , 2014, 36 (8): 1884-1890. 

Tang M, Zhao J Y, Tong R F, et al. GPU accelerated convex hull computation 
[J]. Computers & Graphics, 2012, 36 (5): 498-506. 

Smith T M, Geijn R V D, Smelyanskiy M, et al. Anatomy of high- 
performance many-threaded matrix multiplication [Cl]// Proc of the 28th 
International Parallel and Distributed Processing Symposium. Phoenix: 
IEEE Press, 2014: 1049-1059. 

性 能 计算 [M]. 北 


京 : 清华 大 学 出 版 社 ,2016. 


[11] Cheng L, Li T. Efficient data redistribution to Speed up big data analytics in 


12 


13 


14 


15 


[16] 张 舒 ， 褚 艳 利 . GPU 高 性 能 运算 之 CUDA [MI]. 北京 : 


large Systems [C]/ Proc of the 23rd International Conference on High 
Performance Computing. Washington DC: IEEE Press, 2016: 99-100. 
张 庆 科 , 杨波, 王 琳 , 等 . 基于 GPU 的 现代 并 行 优化 算法 [J]. 计算 机 
科学 , 2012, 39 (4): 304-310. 

谭 彩 凤 , 马 安国 , 邢 座 程 . 基于 CUDA 平台 的 遗传 算法 并 行 实现 研究 
四 . 计算 机 工程 与 科学 , 2009, 31 (s1): 68-72. 

刘欢 , 刘 志 勤 ， 李 凌 , 等 . 一 种 基于 CUDA 平台 的 随机 数 算法 研究 与 实 
现 [J]. 计算 机 应 用 研究 , 2017, 34 (5): 2727-2731. 

Amar A and Weiss A. Localization of narrowband radio emitters based on 
Doppler frequency shifts [J]. IEEE Trans on Signal Processing, 2008, 56 
(11): 5500-5508. 

中 国 水 利水 电 出 


版 社 , 2009. 


